scrapy -- CrawlSpider类

python - 单击 Scrapy 中的按钮

我正在使用Scrapy抓取网页。我需要的一些信息只有在你点击某个按钮时才会弹出(当然点击后HTML代码中也会出现)。我发现Scrapy可以处理表单(如登录)，如图here.但问题是没有表格可以填写，所以这不是我需要的。我怎样才能简单地点击一个按钮，然后显示我需要的信息？我必须使用像mechanize或lxml这样的外部库吗？最佳答案 Scrapy无法解释javascript。如果您绝对必须与页面上的javascript交互，那么您希望使用Selenium。如果使用Scrapy，问题的解决方案取决于按钮在做什么。如果它只是显示之前隐

python - 单击 Scrapy 中的按钮

我正在使用Scrapy抓取网页。我需要的一些信息只有在你点击某个按钮时才会弹出(当然点击后HTML代码中也会出现)。我发现Scrapy可以处理表单(如登录)，如图here.但问题是没有表格可以填写，所以这不是我需要的。我怎样才能简单地点击一个按钮，然后显示我需要的信息？我必须使用像mechanize或lxml这样的外部库吗？最佳答案 Scrapy无法解释javascript。如果您绝对必须与页面上的javascript交互，那么您希望使用Selenium。如果使用Scrapy，问题的解决方案取决于按钮在做什么。如果它只是显示之前隐

python Scrapy section javascript web-crawler web-scraping

python - 如何在scrapy中根据url过滤重复请求

我正在使用带有CrawlSpider的scrapy为网站编写爬虫。Scrapy提供了一个内置的重复请求过滤器，它根据url过滤重复请求。另外，我可以使用CrawlSpider的rules成员过滤请求。我想要做的是过滤请求:http:://www.abc.com/p/xyz.html?id=1234&refer=5678如果我已经去过http:://www.abc.com/p/xyz.html?id=1234&refer=4567NOTE:referisaparameterthatdoesn'taffecttheresponseIget,soIdon'tcareifthevalueoft

何在 python section code self web-crawler scrapy

python - 如何在scrapy中根据url过滤重复请求

我正在使用带有CrawlSpider的scrapy为网站编写爬虫。Scrapy提供了一个内置的重复请求过滤器，它根据url过滤重复请求。另外，我可以使用CrawlSpider的rules成员过滤请求。我想要做的是过滤请求:http:://www.abc.com/p/xyz.html?id=1234&refer=5678如果我已经去过http:://www.abc.com/p/xyz.html?id=1234&refer=4567NOTE:referisaparameterthatdoesn'taffecttheresponseIget,soIdon'tcareifthevalueoft

何在 python section code self web-crawler scrapy

python - 我如何在scrapy python中使用多个请求并在它们之间传递项目

我有item对象，我需要将它传递给许多页面以将数据存储在单个项目中就像我的商品一样classDmozItem(Item):title=Field()description1=Field()description2=Field()description3=Field()现在这三个描述位于三个单独的页面中。我想做类似的事情现在这适用于parseDescription1defpage_parser(self,response):sites=hxs.select('//div[@class="row"]')items=[]request=Request("http://www.example.

python 何在 item parseDescription response scrapy

python - 我如何在scrapy python中使用多个请求并在它们之间传递项目

我有item对象，我需要将它传递给许多页面以将数据存储在单个项目中就像我的商品一样classDmozItem(Item):title=Field()description1=Field()description2=Field()description3=Field()现在这三个描述位于三个单独的页面中。我想做类似的事情现在这适用于parseDescription1defpage_parser(self,response):sites=hxs.select('//div[@class="row"]')items=[]request=Request("http://www.example.

python 何在 item parseDescription response scrapy

python - Scrapy - 如何管理 cookie/ session

我有点困惑cookie如何与Scrapy一起工作，以及您如何管理这些cookie。这基本上是我正在尝试做的简化版本:网站的运作方式:当您访问该网站时，您会获得一个sessioncookie。当您进行搜索时，网站会记住您搜索的内容，因此当您执行诸如转到下一页结果之类的操作时，它会知道它正在处理的搜索。我的脚本:我的蜘蛛有一个searchpage_url的起始urlparse()请求搜索页面，并将搜索表单响应传递给search_generator()search_generator()然后yield使用FormRequest的大量搜索请求和搜索表单响应。这些FormRequest中的每一个

session python cookie code cookiejar cookies session-cookies scrapy

python - Scrapy - 如何管理 cookie/ session

我有点困惑cookie如何与Scrapy一起工作，以及您如何管理这些cookie。这基本上是我正在尝试做的简化版本:网站的运作方式:当您访问该网站时，您会获得一个sessioncookie。当您进行搜索时，网站会记住您搜索的内容，因此当您执行诸如转到下一页结果之类的操作时，它会知道它正在处理的搜索。我的脚本:我的蜘蛛有一个searchpage_url的起始urlparse()请求搜索页面，并将搜索表单响应传递给search_generator()search_generator()然后yield使用FormRequest的大量搜索请求和搜索表单响应。这些FormRequest中的每一个

session python cookie code cookiejar cookies session-cookies scrapy

python - 将 Scrapy 与经过身份验证(登录)的用户 session 一起使用

在Scrapydocs，下面有一个例子来说明如何在Scrapy中使用经过身份验证的session:classLoginSpider(BaseSpider):name='example.com'start_urls=['http://www.example.com/users/login.php']defparse(self,response):return[FormRequest.from_response(response,formdata={'username':'john','password':'secret'},callback=self.after_login)]defaf

session python response code self scrapy

python - 将 Scrapy 与经过身份验证(登录)的用户 session 一起使用

在Scrapydocs，下面有一个例子来说明如何在Scrapy中使用经过身份验证的session:classLoginSpider(BaseSpider):name='example.com'start_urls=['http://www.example.com/users/login.php']defparse(self,response):return[FormRequest.from_response(response,formdata={'username':'john','password':'secret'},callback=self.after_login)]defaf

session python response code self scrapy